Estabilidad vs. Manipulabilidad: Evaluando Robustez en Jueces LLM
Los jueces LLM son estables en reevaluaciones neutrales, pero vulnerables a retos dirigidos. El ERS mide su robustez interaccional. Conoce sus implicaciones.
Los jueces LLM son estables en reevaluaciones neutrales, pero vulnerables a retos dirigidos. El ERS mide su robustez interaccional. Conoce sus implicaciones.